1
Introduzione alla Visione Artificiale e al Processamento delle Immagini Digitali
PolyU COMP5511Lecce 8
00:00

Introduzione alla Visione Artificiale e al Processamento delle Immagini Digitali

Visione Artificiale è il campo dell'intelligenza artificiale che consente ai computer di ottenere informazioni significative da immagini e video digitali, cercando efficacemente di colmare il divario semantico tra i dati grezzi dei pixel e la comprensione a livello umano.Processamento delle Immagini Digitali funge da strato fondamentale per la Visione Artificiale, concentrandosi sulla manipolazione e l'ottimizzazione dei segnali delle immagini attraverso trasformazioni punto per punto per preparare i dati per compiti interpretativi di livello superiore.

Principi Fondamentali

  • Rappresentazione dei Dati: A livello macchina, un'immagine è una tensore numerica piuttosto che un'immagine complessiva. Le immagini in scala di grigi sono matrici 2D di valori di intensità, mentre le immagini a colori sono tensori 3D che rappresentano i canali Rosso, Verde e Blu (RGB) con dimensioni $H \times W \times 3$.
  • Trasformazione vs. Interpretazione: Il Processamento delle Immagini Digitali si occupa principalmente di operazioni immagine-immagine come riduzione del rumore, accentuazione o equalizzazione dell'istogramma. La Visione Artificiale si concentra su operazioni immagine-conoscenza come classificazione degli oggetti, localizzazione e segmentazione.
  • Il Paradigma della Grafica Inversa: La Visione Artificiale può essere vista come l'inverso della Grafica Computerizzata. Mentre la grafica cerca di generare un mondo visivo da modelli matematici, la visione cerca di recuperare strutture 3D e etichette semantiche da proiezioni 2D.
La Sfida Fondamentale
La sfida principale di questo campo è il Divario Semantico, ovvero la separazione tra i valori a basso livello dei pixel elaborati dalle macchine e i concetti a alto livello percepiti dagli esseri umani.
Implementazione in Python
Domanda 1
Quale processo è categorizzato come un'operazione immagine-conoscenza?
Processamento delle Immagini Digitali
Visione Artificiale
Grafica Computerizzata
Equalizzazione dell'Istogramma
Domanda 2
A livello macchina, quale è la struttura dei dati di un'immagine a colori standard?
Matrice 2D
Array 1D
Tensore 3D / Canali RGB
Lista Concatenata
Studio di Caso: Sistema di Diagnosi Medica
Leggi lo scenario qui sotto e rispondi alle domande.
Un ospedale sta sviluppando un nuovo sistema automatico di diagnosi medica progettato per analizzare scansioni a raggi X per eventuali fratture ossee. Il sistema elabora i dati grezzi provenienti dalla macchina a raggi X e produce un rapporto diagnostico per il radiologo.
Q
1. Se il sistema applica un miglioramento del contrasto per rendere più chiare le strutture ossee, si tratta di Processamento delle Immagini Digitali (DIP) o di Visione Artificiale (CV)?
Risposta:
Processamento delle Immagini Digitali. L'aumento del contrasto è una trasformazione immagine-immagine che migliora la qualità visiva del segnale senza estrarre significato semantico.
Q
2. Se il sistema evidenzia automaticamente una zona specifica come potenziale frattura, quale compito sta eseguendo?
Risposta:
Visione Artificiale / Rilevamento di Oggetti. Il sistema sta interpretando il contenuto dell'immagine per estrarre conoscenza di alto livello (individuare una frattura).
Q
3. Perché è necessaria la riduzione del rumore prima di eseguire un algoritmo di rilevamento?
Risposta:
Per migliorare la qualità del segnale e ridurre i falsi positivi nella fase di interpretazione semantica. Il rumore può essere erroneamente interpretato dagli algoritmi di Visione Artificiale come caratteristiche reali o bordi.